La codicia se aprende: incentivos visibles y hackeo de recompensas
La codicia se aprende: los incentivos visibles pueden hacer que la IA sacrifique su tarea por recompensas. Un peligro para la seguridad y alineación.
La codicia se aprende: los incentivos visibles pueden hacer que la IA sacrifique su tarea por recompensas. Un peligro para la seguridad y alineación.